StormCrawler icon

StormCrawler

StormCrawler icon

StormCrawler

  1
Бесплатное ПО Открытый код
Категории:
Платформы: Mac Linux Windows
Особенности:
web-crawler



StormCrawler - это SDK с открытым исходным кодом для создания распределенных
веб-сканеров с помощью Apache Storm. Проект находится под лицензией Apache v2
и состоит из набора повторно используемых ресурсов и компонентов, написанных в
основном на Java.

Цель StormCrawler - помочь в создании веб-сканеров, которые:

масштабируемый
упругий
низкая задержка
легко продлить
вежливый, но эффективный

StormCrawler - это библиотека и набор ресурсов, которые разработчики могут
использовать для создания собственных сканеров. Хорошей новостью является то,
что это может быть довольно просто. Часто все, что вам нужно сделать, это
объявить storm-crawler как зависимость Maven, написать свой собственный класс
Topology (совет: вы можете расширить ConfigurableTopology), повторно
использовать компоненты, предоставляемые проектом, и, возможно, написать пару
пользовательских. для вашего собственного секретного соуса. Немного настройки
в Конфигурации и все готово!

Помимо основных компонентов, мы предоставляем некоторые внешние ресурсы,
которые вы можете повторно использовать в своем проекте, например, наши изливы
и болты для ElasticSearch или ParserBolt, которые используют Apache Tika для
анализа различных форматов документов.

StormCrawler идеально подходит для случаев, когда URL-адрес для извлечения и
анализа представляет собой потоки, но также является подходящим решением для
крупномасштабных рекурсивных обходов, особенно когда требуется низкая
задержка. Проект используется в производстве несколькими компаниями и активно
развивается и поддерживается.

Аналоги (6):

  • Scrapy

    Scrapy - это открытая и совместная структура для извлечения необходимых вам данных с веб-сайтов.
      78
    Бесплатное ПО Открытый код
    Mac Linux Windows
    data-mining сбор данных web-scraping framework
  • Mixnode

    Преврати сеть в базу данных!
      37
    Платное ПО
    Web
    web-crawling поддержка amazon s3 crawling фильтрация по типу контента url filtering web-crawler web-scraper warc выход web-data-extraction web-scraping website-crawler web-scraping-software
  • Heritrix

    Интернет-архиватор с открытым исходным кодом, расширяемый, масштабируемый в сети, проект поискового робота.
      3
    Бесплатное ПО Открытый код
    Mac Linux Windows
    web-crawler web-crawling web-data-crawling
  • ProxyCrawl

    Царапать и сканировать веб-сайты, оставаясь анонимным, и обходить любые ограничения, блоки или капчи
      3
    Бесплатное ПО
    Web
    crawling-as-service scraping crawling scraper website-scraper crawler web-scraping-tools web-scraper free api scraping-tools web-scraping анонимный веб скрапинг web-scraping-software
  • ACHE Crawler

    ACHE is a web crawler for domain-specific search.
      2
    Бесплатное ПО Открытый код
    Mac Linux Windows
    web-crawler web-scraper web-scraping web-crawling
  • Apache Nutch

    Apache Nutch - это расширяемый и масштабируемый программный проект с открытым исходным кодом.
      2
    Бесплатное ПО Открытый код
    Mac Linux Windows
    web-crawler web-scraper java-based расширяемый с помощью плагинов/расширений масштабируемость web-crawling